¿Qué es kolmogorov-smirnov test?

El test de Kolmogorov-Smirnov, también conocido como prueba K-S, es una prueba estadística no paramétrica utilizada para determinar si una muestra sigue una distribución específica o si dos muestras provienen de la misma distribución.

Esta prueba es especialmente útil cuando no se tiene información sobre los parámetros de la población o cuando los datos no cumplen con los requisitos asumidos por los métodos paramétricos.

La prueba de Kolmogorov-Smirnov compara la función de distribución acumulativa (FDA) empírica de la muestra con la función de distribución acumulativa teórica de la distribución que se está probando. La prueba utiliza la siguiente hipótesis nula y alternativa:

  • Hipótesis nula (H0): Las muestras provienen de la misma distribución.
  • Hipótesis alternativa (H1): Las muestras no provienen de la misma distribución.

Para llevar a cabo la prueba de Kolmogorov-Smirnov, se deben seguir los siguientes pasos:

  1. Calcular la función de distribución acumulativa empírica (FDMe) para la muestra(s) que se desea probar.
  2. Determinar la función de distribución acumulativa teórica (FDAt) de la distribución que se quiere contrastar.
  3. Calcular la estadística de prueba D, que es la máxima diferencia absoluta entre las FDMe y FDAt.
  4. Comparar el valor crítico de Kolmogorov-Smirnov obtenido de tablas de referencia con el valor de D calculado.
  5. Si el valor de D es menor o igual al valor crítico, no se rechaza la hipótesis nula. De lo contrario, se rechaza a favor de la hipótesis alternativa.

La prueba de Kolmogorov-Smirnov se utiliza en diversas áreas, como la física, la economía y la biología, para evaluar si los datos se ajustan a una distribución específica, para comparar distribuciones entre diferentes grupos o para determinar si una muestra de datos proviene de una población específica.

Es importante tener en cuenta que la prueba de Kolmogorov-Smirnov se basa en la suposición de que los datos son independientes e idénticamente distribuidos (i.i.d). Además, es más útil cuando se utilizan muestras grandes, ya que su poder estadístico aumenta con el tamaño de la muestra.